Inleiding Statistiek

Bennett Kleinberg

Week 1

Week 1

  • Waarom hebben we eigenlijk statistiek nodig?
  • Over de cursus
  • Frequentieverdelingen

Aan de slag

Maria

Maria is 26 jaar, vrijgezel, openhartig, en erg slim. Ze studeerde af in de rechten. Als student was ze zeer begaan met kwesties van discriminatie en miscarriage of justice en nam ze deel aan wekelijkse demonstraties voor dierenrechten.

Aangepast van Tversky & Kahneman (1983)

Wat is waarschijnlijker?

  • A: Maria werkt in een advocatenkantoor
  • B: Maria werkt in een advocatenkantoor en doet pro bono werk voor dieren-rechten activisten

Hollywood ruïneert boeken, toch?

Goede boeken worden slechte films!

(demo)

Berkson’s paradox.

Geldt ook voor aantrekkelijkheid en aardigheid in dating

Boekentip: Jordan Ellenberg “How not to be wrong”

YT video van Numberphile

Why should I care?

  • we worden overspoeld met data
  • we willen de wereld om ons heen begrijpen
  • … vooral: menselijk gedrag en de samenleving

Statistiek is de beste manier om dit te doen.

Stel dat je wilt weten…

  • of eenzaamheid toenam tijdens lockdown?
  • hoeveel gevaarlijker COVID-19 is voor mensen met kanker?
  • hoe betrokkenheid bij online communities samenhangt met extremistische wereldbeelden?
  • of een avondklok tot een toename aan rellen leidt?

Statistiek is geen goede manier om deze vragen te benaderen.

Het is de ENIGE manier om deze vragen zinvol te benaderen!

Wat betekent het eigenlijk?

Statistics, the science of collecting, analyzing, presenting, and interpreting data. Britannica

A branch of mathematics dealing with the collection, analysis, interpretation, and presentation of masses of numerical data. Merriam-Webster

Opmerking: dit is \(\neq\) “statistiek als een verzameling van gegevens”

Synopsis van statistiek

  • we werken met data in numerieke zin
  • we willen informatie uit deze data verkrijgen
  • en we willen de onzekerheid begrijpen die met data gepaard gaat
    • dit is een aspect waarin het verschilt van wiskundige modellering

En tenslotte: het woord data is de meervoudsvorm van datum.

I still don’t care!

  • Het niet kunnen interpreteren van data kan dramatisch zijn
  • statistiek is de discipline die over data gaat

\(\frac{deaths}{cases}\) vs \(\frac{deaths}{population}\)

Je zult leren waarom T. het fout had!

De data liegen nooit!?

  • mensen zullen statistieken gebruiken om hun punten te maken
  • dit kan gebruikt worden om te misleiden
  • je moet kennis van statistiek hebben om bullshit te herkennen

Nope: nog steeds niet geïnteresseerd!

  • sociale + gedragswetenschappen hebben kwantitatieve methoden omarmd
  • we proberen processen/attributen/aandoeningen/etc. uit te drukken in getallen
  • dus hebben we ook methoden nodig om deze getallen te begrijpen

De speciale rol voor Psychologie

De uitdaging van het meten

  • Menselijk gedrag en sociale processen zijn zeer complex
  • Vergelijk dit met een druppel olie
  • We zijn vaak geïnteresseerd in de onwaarneembare (Engels: “unobservables”):
    • intelligentie
    • welzijn
    • emoties (angst, verdriet, …), eenzaamheid
  • Deze zijn zeer moeilijk te meten!
  • En we hebben methoden nodig om meer te weten te komen over mensen in het algemeen (= de populatie)

Dit is de essentie van inferentiële statistiek.

Twee houdingen tegenover statistiek

  • Statistiek als gereedschap
    • je gebruikt het om je doel te dienen (bv. een inferentie maken op basis van data)
    • je hebt een pragmatische relatie met statistiek (bv. om onderzoek te doen en de wereld te begrijpen)
  • Statistiek als discipline
    • over het verbeteren van statistiek
    • over betere manieren om gegevens te modelleren, conclusies te trekken, onzekerheid te kwantificeren
    • vooral nu: het begrijpen van enorme hoeveelheden data (gebruik nooit de term Big Data)

Het verband met AI

Video voorbeeld op YT

Mijn belofte

  • Basisstatistiek is vandaag wat lezen gisteren was
  • Als je de tijd investeert om de inhoud van dit vak volledig te begrijpen (vraag altijd als iets onduidelijk is), dan komt het wel goed
  • Elke meer geavanceerde benadering bouwt voort op deze basisideeën

Als je super pragmatisch bent: statistische vaardigheden betalen (heel) erg goed in het bedrijfsleven

De cursus: structuur

  1. Colleges (14x)
  2. Werkgroepen (4x)
  3. SPSS practica (3x)

Colleges

  • wekelijkse video-inhoud
  • wekelijkse (live) verdiepingssessie
  • incl. Q&A

Werkgroepen

  • geleid door onderwijsassistenten
  • gepland in B3W4, B3W8, B4W3, B4W6
  • doorloopen van oefeningen

SPSS practica

  • geleid door onderwijsassistenten
  • coördinator: Ghislaine van Bommel
  • over het uitvoeren van tests in SPSS
  • eerste kennismaking met statistische software

Onze verwachting

Onderdeel Hoeveelh. Duur Totaal aantal uren
Colleges 14 2u 28u
Werkcolleges 4 2u 8u
SPSS practica 3 2u 6u
Wekelijkse revisie/zelf-studie/voorbereiding 16 6u 96u
Toetsing: SPSS test 1 2u 2u
Toetsing: Eindtentamen 1 3u 3u
TOTAAL - - ~140 uren

Onze verwachting

  • bereid de colleges voor
  • kijk/woon de lezingen bij en reviseer ze
  • maak gebruik van de werkgroepen
  • maak het huiswerk

Materiaal

  • Statistics for the Behavioral Sciences (Gravetter & Wallnau)
  • SPSS survival manual (Pallant)

De cursus: Piazza

  • online vraag-en-antwoord platform
  • bij twijfel: altijd vragen!
  • wij beantwoorden vragen en bekijken jouw antwoorden
  • (bekijk de sessie “Introduction to Piazza”)

De cursus: beoordeling

  • Tentamen
  • SPSS-toets

SPSS test

  • beoordeelt jouw vaardigheid om analyses uit te voeren in SPSS
  • alle inhoud uit het boek + practica
  • test ook het vermogen om resultaten te interpreteren
  • gecomputeriseerde test
  • Resultaat: PASS/FAIL

Tentamen

  • meerkeuzevragen (bijv. goed vs fout; 4 opties)
  • standaard 1-10 cijferschaal
  • nodig: 5,5 (na correctie op gokkans)
  • datum en vorm nog te bevestigen

Basisideeën in de statistiek

  • Het idee van data
  • Soorten statistisch denken
  • Eerste blik op verdelingen

Benaderingen van statistiek

Beschrijvende statistiek

  • over het beschrijven van de data
  • vaak via samenvattende statistieken (week 2)
  • vb. een Spaanse vrouw is gemiddeld 1,63m lang
  • b.v. De rijkste 1% bezit 50% van de aandelen in bedrijven

Benaderingen van statistiek

Inferentiële statistiek

  • we willen een inferentie maken van iets naar iets anders
  • hier: we willen een inferentie (~ gevolgtrekking) maken van de steekproef naar de populatie

Inferentiële statistiek

data \(\neq\) data

  • Lengte (in cm)
  • Jaarinkomen (in EUR)
  • Roker vs. niet-roker
  • Huisdier (hond, kat, hamster, konijn)
  • Steun voor Trump (van -5 tot +5)

Dimensies van het data-idee

  • constructen vs. operationaliseringen
  • Discrete vs continue variabelen
  • Verschillende meetniveaus

Constructen vs. operationaliseringen

Constructen vs operationaliseringen

Discrete vs continue variabelen

Sommige variabelen kunnen slechts uit een beperkt aantal categorieën bestaan:

  • b.v. geslacht, oogkleur, moedertaal
  • maar ook: aantal huisdieren, aantal broers en zussen, hoe vaak op vakantie geweest

Er kan geen waarde zijn tussen 1 en 2 huisdieren.

Deze variabelen worden discrete variabelen genoemd.

Discrete vs continue variabelen

Andere variabelen kunnen alle waarden tussen twee punten aannemen:

  • b.v. inkomen, lengte, gewicht, snelheid
  • je lengte kan in principe worden uitgedrukt als 1,75123461736823837423 meter
  • een waarde van een continue variabele (b.v. 1,75 m) is dus eigenlijk een interval

Het meten van variabelen

De nominale schaal (Eng: nominal scale)

  • benoemde categorieën (b.v., hond, kat, hamster)
  • geen kwantitatief onderscheid tussen categorieën (je kunt niet zeggen een hond is meer dan een kat)
  • geen nul!

Het meten van variabelen

De ordinale schaal (Eng: ordinal scale)

  • gerangschikte categorieën (b.v. 1e, 2e, 3e)
  • geen gelijke afstand tussen de rangen
  • geen nul!

Het meten van variabelen

De intervalschaal (Eng: interval scale)

  • bestaat uit even grote intervallen tussen waarden
  • elke eenheid heeft dezelfde grootte
  • b.v. temperatuur:
    • van 21 tot 26.
    • van \(1^{\circ}C\) naar \(6^{\circ}C\)
    • hebben beide hetzelfde verschil
  • maar: geen echt nulpunt! (willekeurig gekozen)

Het meten van variabelen

De ratio scale

  • bestaat uit even grote intervallen tussen waarden
  • elke eenheid heeft dezelfde grootte
  • maar nu hebben we wel een absolute nul
  • b.v. afstand: een afstand van nul betekent dat je fiets niet van positie veranderd is

Data weergeven

Vandaag:

  • data als een frequentieverdeling
  • manieren om data weer te geven
  • beschrijven van de locatie van datapunten

Voorbeeld

Hoeveel huisdieren heb je?

  • we vragen 10 mensen
  • zij geven ons het aantal huisdieren dat momenteel in hun huishouden leeft

Onthoud:

  • het construct is “aantal huisdieren”
  • de operationalisering is "het aantal huisdieren dat momenteel in het hoofdhuishouden van een persoon woont

Onze data

id pets
1 0
2 2
3 2
4 3
5 0
6 1
7 3
8 1
9 1
10 0

We willen misschien wat meer structuur

  • Misschien kunnen we tellen hoe vaak elke optie voorkomt
  • d.w.z. hoeveel mensen hebben 0, 1, 2, … huisdieren?

Dit wordt de frequentie(s) van waarden genoemd.

Frequenties

Var1 Freq
0 3
1 3
2 2
3 2

Een gestructureerde tabel wordt dan een frequentieverdelingstabel genoemd.

Een ander voorbeeld

  • iemands geslacht
  • opties hier: man - vrouw - liever niet zeggen
Var1 Freq
female 55
male 38
p-n-t-s 7

Frequentieverdelingen voor continue variabelen

id income
31 37900
32 37300
33 17000
34 45300
35 25800
36 33600
37 89000
38 20200
39 57900
40 20700

Probleem voor een frequentieverdelingstabel?

Var1 Freq
20700 1
21300 2
22400 1
22800 1
22900 1
23700 1
25100 1
25800 1
26700 2
27900 1

Gegroepeerde frequentieverdelingen

Idee:

  • we bundelen enkele waardebereiken samen
  • we kunnen hier waarschijnlijk wat meetprecisie verliezen
  • voorbeeld:
    • laag (0-25000)
    • midden (25001-50000)
    • boven-midden (50001-75000)
    • hoog (75001+)

Grouped income data

Var1 Freq
high 30
low 27
middle 24
upper-middle 19

Is dit ideaal?

Wat als we deze twee data verzamelingen hebben?

  1. aantal huisdieren (\(n=10\))
  2. aantal huisdieren (\(n=10000\))

Wat verwachten we?

De tabellen vergelijken

X f
0 2991
1 3057
2 2997
3 472
4 483

Voor het kleine dataset

X f
0 3
1 3
2 2
3 2

Oplossing: proporties

X f prop
0 2991 0.2991
1 3057 0.3057
2 2997 0.2997
3 472 0.0472
4 483 0.0483

Proportie: \(p = \frac{f}{N}\)

… en percentages

X f prop perc
0 2991 0.2991 29.91
1 3057 0.3057 30.57
2 2997 0.2997 29.97
3 472 0.0472 4.72
4 483 0.0483 4.83

Percentages: \(p = \frac{f}{N}*100\)

Figuur

Histogrammen

Histogrammen (proporties)

Naast elkaar

Datapunten lokaliseren

  • We willen misschien weten waar een waarde ligt ten opzichte van de hele data
  • b.v. Zijn 3 huisdieren veel of weinig?
  • Waar ligt een inkomen van \(X=40000\) in onze data?

We kunnen punten lokaliseren op basis van de frequentieverdeling.

Percentielen

  1. We sorteren onze frequentietabel
X f prop perc
0 2991 0.2991 29.91
1 3057 0.3057 30.57
2 2997 0.2997 29.97
3 472 0.0472 4.72
4 483 0.0483 4.83

Percentielen

  1. We sorteren onze frequentietabel
  2. We berekenen een cumulatief percentage (idem voor verhoudingen)
X f prop perc perc_cum
0 2991 0.2991 29.91 29.91
1 3057 0.3057 30.57 60.48
2 2997 0.2997 29.97 90.45
3 472 0.0472 4.72 95.17
4 483 0.0483 4.83 100.00

Percentielen

  1. We sorteren onze frequentietabel
  2. We berekenen een cumulatief percentage (idem voor proporties)
  3. We lokaliseren ons datapunt van belang (hier: het hebben van 3 huisdieren)
X f prop perc perc_cum
0 2991 0.2991 29.91 29.91
1 3057 0.3057 30.57 60.48
2 2997 0.2997 29.97 90.45
3 472 0.0472 4.72 95.17
4 483 0.0483 4.83 100.00

Percentielen interpreteren

  • We weten dat 3 huisdieren overeenkomt met een cumulatief percentage van 95,17%
  • d.w.z. 95,17% van onze data is geaccumuleerd zodra we 3 huisdieren (inclusief) bereiken
  • 95,17% van de antwoorden valt onder 0, 1, 2, of 3 huisdieren.

“3 huisdieren” heeft een percentielrang (Eng: percentile rank) van 95,17%

“3 huisdieren” is het 95ste percentiel

Inkomensdata

X f perc perc_cum
800 1 1.0526 1.0526
1100 1 1.0526 2.1052
1500 1 1.0526 3.1578
4700 1 1.0526 4.2104
5700 1 1.0526 5.2630
9200 1 1.0526 6.3156
9300 1 1.0526 7.3682
10300 1 1.0526 8.4208
10400 1 1.0526 9.4734
11100 1 1.0526 10.5260

Het verkrijgen van percentielen

Waar ligt een inkomen van \(X=40000\) in onze data?

X f perc perc_cum
37800 1 1.0526 46.3146
37900 1 1.0526 47.3672
38500 1 1.0526 48.4198
41900 1 1.0526 49.4724
43600 1 1.0526 50.5250

Een inkomen van 40.000 heeft een percentielrang van 48,42%.

Recap

  • intro van het vak
  • eerste stappen
  • frequentieverdelingen
  • datapunten lokaliseren

Volgende week

Gegevens verder begrijpen:

  • centrale tendens van gegevens
  • variabiliteit van gegevens

Contact + vragen